import pandas as pd

# 读取样本数据
qa_df = pd.read_parquet(r'D:\laern_langchain\bjq1021\content\project_dir\16\retrieve_node_line\semantic_retrieval\best_0.parquet')
qa_df.to_excel("best.xlsx")
# 打印总记录数
print(f"样本数据总共有 {len(qa_df)} 条记录")

# 检查 query 列空值
na_count = qa_df['query'].isna().sum()
print(f"query 列空值数量: {na_count}")

# 删除空值行
qa_df = qa_df.dropna(subset=['query']).reset_index(drop=True)

# 检查是否有纯数字 query
numeric_queries = qa_df['query'].apply(lambda x: str(x).isdigit())
print(f"纯数字 query 数量: {numeric_queries.sum()}")

# 如果希望把纯数字也转换为字符串或者处理掉
# 方法1: 转成字符串
qa_df['query'] = qa_df['query'].astype(str)

# 方法2: 删除纯数字行
# qa_df = qa_df[~numeric_queries].reset_index(drop=True)

# 保存清洗后的数据
qa_df.to_parquet('./content/eli5_data/qa_sample_clean.parquet')
print("清洗后的数据已保存。")

# https://marker-inc-korea.github.io/AutoRAG/structure.html